智能论文笔记

Dynamic Graph Node Classification via Time Augmentation

Jiarui Sun , Mengting Gu , Chin-Chia Michael Yeh , Yujie Fan , Girish Chowdhary , Wei Zhang

分类：机器学习

2022-12-07

Node classification for graph-structured data aims to classify nodes whose labels are unknown. While studies on static graphs are prevalent, few studies have focused on dynamic graph node classification. Node classification on dynamic graphs is challenging for two reasons. First, the model needs to capture both structural and temporal information, particularly on dynamic graphs with a long history and require large receptive fields. Second, model scalability becomes a significant concern as the size of the dynamic graph increases. To address these problems, we propose the Time Augmented Dynamic Graph Neural Network (TADGNN) framework. TADGNN consists of two modules: 1) a time augmentation module that captures the temporal evolution of nodes across time structurally, creating a time-augmented spatio-temporal graph, and 2) an information propagation module that learns the dynamic representations for each node across time using the constructed time-augmented graph. We perform node classification experiments on four dynamic graph benchmarks. Experimental results demonstrate that TADGNN framework outperforms several static and dynamic state-of-the-art (SOTA) GNN models while demonstrating superior scalability. We also conduct theoretical and empirical analyses to validate the efficiency of the proposed method. Our code is available at https://sites.google.com/view/tadgnn.

translated by 谷歌翻译

Multimedia Generative Script Learning for Task Planning

Qingyun Wang , Manling Li , Hou Pong Chan , Lifu Huang , Julia Hockenmaier , Girish Chowdhary , Heng Ji

分类：自然语言处理 | 人工智能 | 计算机视觉

2022-08-25

面向目标的生成脚本学习旨在根据目标生成后续步骤，这是帮助机器人进行日常生活的刻板印象活动的重要任务。我们表明，如果历史状态不仅被给人的语言指示捕获，而且还可以增强随附图像提供的其他信息，可以提高此任务的性能。因此，我们提出了一项新任务，多媒体生成脚本学习，以通过跟踪文本和视觉方式中的历史状态，并介绍包含2,338个任务和31,496个步骤的第一个基准，从而生成后续步骤。我们旨在生成视觉状态的脚本，这些脚本是可跟踪的，对看不见的任务的诱导性，并且在各自的步骤中多样化。我们建议通过多媒体选择性编码器编码视觉状态更改，并使用检索仪的解码器从先前观察到的任务中转移知识，并通过优化面向多样性的对比度学习目标来在每个步骤中介绍不同的信息。我们定义指标以评估发电质量和电感质量。实验结果表明，我们的方法明显优于强质基线。

translated by 谷歌翻译

WayFAST: Navigation with Predictive Traversability in the Field

Mateus Valverde Gasparino , Arun Narenthiran Sivakumar , Yixiao Liu , Andres Eduardo Baquero Velasquez , Vitor Akihiro Hisano Higuti , John Rogers , Huy Tran , Girish Chowdhary

分类：机器人 | 人工智能 | 计算机视觉 | 机器学习

2022-03-22

我们提出了一种自我监督的方法，用于预测需要良好牵引力才能导航的轮式移动机器人的可穿越路径。我们的算法称为Wayfast（无路线自动驾驶系统用于遍历性），使用RGB和深度数据以及导航经验，自主在室外非结构化环境中自主生成可遍历的路径。我们的主要灵感是，可以使用动力动力学模型估算滚动机器人的牵引力。使用在线退化的视野估计器提供的牵引力估计值，我们能够以自我监督的方式训练遍历性预测神经网络，而无需以前的方法使用的启发式方法。我们通过在各种环境中进行广泛的现场测试来证明Wayfast的有效性，从沙滩到森林檐篷和积雪覆盖的草田不等。我们的结果清楚地表明，Wayfast可以学会避免几何障碍物以及不可传输的地形，例如雪，这很难避免使用仅提供几何数据（例如LiDAR）的传感器。此外，我们表明，基于在线牵引力估计的培训管道比其他基于启发式的方法更有效率。

translated by 谷歌翻译

NIRVANA: Neural Implicit Representations of Videos with Adaptive Networks and Autoregressive Patch-wise Modeling

Shishira R Maiya , Sharath Girish , Max Ehrlich , Hanyu Wang , Kwot Sin Lee , Patrick Poirson , Pengxiang Wu , Chen Wang , Abhinav Shrivastava

分类：计算机视觉

2022-12-30

Implicit Neural Representations (INR) have recently shown to be powerful tool for high-quality video compression. However, existing works are limiting as they do not explicitly exploit the temporal redundancy in videos, leading to a long encoding time. Additionally, these methods have fixed architectures which do not scale to longer videos or higher resolutions. To address these issues, we propose NIRVANA, which treats videos as groups of frames and fits separate networks to each group performing patch-wise prediction. This design shares computation within each group, in the spatial and temporal dimensions, resulting in reduced encoding time of the video. The video representation is modeled autoregressively, with networks fit on a current group initialized using weights from the previous group's model. To further enhance efficiency, we perform quantization of the network parameters during training, requiring no post-hoc pruning or quantization. When compared with previous works on the benchmark UVG dataset, NIRVANA improves encoding quality from 37.36 to 37.70 (in terms of PSNR) and the encoding speed by 12X, while maintaining the same compression rate. In contrast to prior video INR works which struggle with larger resolution and longer videos, we show that our algorithm is highly flexible and scales naturally due to its patch-wise and autoregressive designs. Moreover, our method achieves variable bitrate compression by adapting to videos with varying inter-frame motion. NIRVANA achieves 6X decoding speed and scales well with more GPUs, making it practical for various deployment scenarios.

translated by 谷歌翻译

A study on the deviations in performance of FNNs and CNNs in the realm of grayscale adversarial images

Durga Shree Nagabushanam , Steve Mathew , Chiranji Lal Chowdhary

分类：计算机视觉 | 机器学习

2022-09-17

神经网络在与噪声扰动的图像分类中的精度较小。 CNN卷积神经网络以其在良性图像的分类中无与伦比的精度而闻名。但是我们的研究表明，它们极易受到噪声的攻击，而馈送前向神经网络，FNN与噪声扰动的对应性较小，几乎不受干扰地保持其准确性。观察到FNN可以更好地分类噪声密集的单通道图像，而这些图像只是人类视觉的巨大噪音。在我们的研究中，我们使用了以下架构的手写数字数据集，MNIST：具有1和2个隐藏层和CNN的FNN，带有3、4、6和8卷积，并分析了其准确性。 FNN脱颖而出表明，无论噪声强度如何，它们的分类精度超过85％。在我们通过此数据对CNN的分析中，CNN的分类准确性减速8卷积是其余CNN的一半。准确性趋势的相关分析和数学建模是这些结论的路线图。

translated by 谷歌翻译

Inflating 2D Convolution Weights for Efficient Generation of 3D Medical Images

Yanbin Liu , Girish Dwivedi , Farid Boussaid , Frank Sanfilippo , Makoto Yamada , Mohammed Bennamoun

分类：计算机视觉

2022-08-08

三维（3D）医学图像的产生可能具有巨大的应用潜力，因为它考虑了3D解剖结构。但是，有两个问题可以防止有效培训3D医疗生成模型：（1）3D医学图像的获取和注释非常昂贵，导致培训图像不足，（2）大量参数是参与3D卷积。为了解决这两个问题，我们提出了一种名为3D Split＆Shuffle-Gan的新型GAN模型。为了解决3D数据稀缺问题，我们首先使用丰富的图像切片预先培训二维（2D）GAN模型，并夸大2D卷积权重以改善3D GAN的初始化。为GAN模型的生成器和鉴别器提出了新型的3D网络体系结构，以显着减少参数的数量，同时保持图像生成的质量。研究了许多体重通胀策略和参数有效的3D架构。对心脏（Stanford Aimi冠状动脉钙）和大脑（阿尔茨海默氏病神经成像计划）的实验表明，所提出的方法会导致改善的3D图像产生质量，参数较少。

translated by 谷歌翻译

Explainable Artificial Intelligence for Pharmacovigilance: What Features Are Important When Predicting Adverse Outcomes?

Isaac Ronald Ward , Ling Wang , Juan lu , Mohammed Bennamoun , Girish Dwivedi , Frank M Sanfilippo

分类：人工智能 | 机器学习

2021-12-25

可说明的人工智能（XAI）被确定为使用机器学习（ML）模型进行预测时确定功能的重要性的可行方法。在这项研究中，我们创建了将个人健康信息（例如，他们的药物历史和合并症）作为输入的模型，并预测个体将具有急性冠状动脉综合征（ACS）不利结果的可能性。使用Xai，我们量化了特定药物对这些ACS预测的贡献，从而产生了基于XAI的药物检测技术，使用ACS作为检测的不利结果的示例。鉴定了1993年至2009年在1993年至2009年期间提供的65岁以上的人（解剖治疗化学（ATC）级别M）或心血管系统（ATC类C）药物，以及其药物历史，组合和其他关键特征来自联系的西澳大利亚数据集。培训多种ML模型以预测这些个体如果这些个体具有ACS相关的不利结果（即，用于ACS的放电诊断的死亡或住院），并且使用各种ML和XAI技术来计算哪种特征 - 特别是哪种药物 - 导致这些预测。发现ROFecoxib和Celecoxib的药物分配特征对ACS相关的不利结果预测（平均）的贡献大于零效果，并且发现ACS相关的不利结果可以预测72％的准确度。此外，发现Xai库石灰和Shap成功识别重要和不重要的功能，具有略微优于石灰的形状。 ML培训的ML模型与XAI算法串联的连接行政健康数据集可以成功地量化特征重要性，并且随着进一步的开发，可能被用作药物检测技术。

translated by 谷歌翻译

Entropy-Regularized Partially Observed Markov Decision Processes

Timothy L. Molloy , Girish N. Nair

分类：人工智能

2021-12-22

我们调查部分观察到的Markov决策过程（POMDPS），通过描述状态，观察和控制不确定性的熵术语规范化的成本函数。标准POMDP技术显示为对这些熵正则化的POMDP提供有界误差解决方案，当正规化涉及状态，观察和控制轨迹的联合熵时，具有精确的解决方案。我们的联合熵结果特别令人惊讶，因为它构成了一种新颖的，无解决的活性状态估计的制剂。

translated by 谷歌翻译

CLICKER: A Computational LInguistics Classification Scheme for Educational Resources

Swapnil Hingmire , Irene Li , Rena Kawamura , Benjamin Chen , Alexander Fabbri , Xiangru Tang , Yixin Liu , Thomas George , Tammy Liao , Wai Pan Wong

分类：自然语言处理

2021-12-16

科学主题的分类方案概述了其知识体系。它还可以用于促进访问研究文章和与受试者相关的其他材料。例如，ACM计算分类系统（CCS）用于ACM数字库搜索界面以及索引计算机科学论文。我们观察到，计算语言学（CL）和自然语言处理（NLP），不存在综合分类系统等CCS或数学主题分类（MSC）。我们提出了一个分类方案 - 基于在这一主题的77个大学课程的在线讲座的分析，Cl / NLP的Clicker。目前拟议的分类学包括334个主题，并侧重于CL / NLP的教育方面;它主要是基于，但不是完全，在NLP课程的讲义中。我们讨论这种分类系统如何帮助各种现实世界应用，包括辅导平台，资源检索，资源推荐，先决条件链学习和调查生成。

translated by 谷歌翻译

Unsupervised Image to Image Translation for Multiple Retinal Pathology Synthesis in Optical Coherence Tomography Scans

Hemanth Pasupuleti , G. N. Girish

分类：计算机视觉

2021-12-11

图像到图像翻译（I2I）是一个充满挑战的计算机视觉问题，用于多个任务的众多域。最近，眼科成为I2i的应用迅速增加的主要领域之一。一种这样的应用是合成视网膜光学相干断层（OCT）扫描的产生。现有的I2I方法需要培训多种模型，将图像从正常扫描转换为特定病理学：限制由于它们的复杂性而对这些模型的使用。要解决此问题，我们提出了一个无监督的多域I2I网络，具有预先培训的样式编码器，可将一个域中的视网膜OCT图像转换为多个域。我们假设图像分裂到域不变内容和域特定的样式代码，并预先培训这些样式代码。所执行的实验表明，所提出的模型优于Munit和Cyclangan合成不同的病理扫描等最先进的模型。

translated by 谷歌翻译